Search CORE

11 research outputs found

Identificación de cláusulas y chunks para el Euskera, usando Filtrado y Ranking con el Perceptron

Author: Alegría Loinaz Iñaki
Arrieta Cortajarena Bertol
Carreras Pérez Xavier
Díaz de Ilarraza Sánchez Arantza
Uria Garin Larraitz
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2008
Field of study

Este artículo presenta sistemas de identificación de chunks y cláusulas para el euskera, combinando gramáticas basadas en reglas con técnicas de aprendizaje automático. Más concretamente, se utiliza el modelo de Filtrado y Ranking con el Perceptron (Carreras, Màrquez y Castro, 2005): un modelo de aprendizaje que permite identificar estructuras sintácticas parciales en la oración, con resultados óptimos para estas tareas en inglés. Este modelo permite incorporar nuevos atributos, y posibilita así el uso de información de diferentes fuentes. De esta manera, hemos añadido información lingüística en los algoritmos de aprendizaje. Así, los resultados del identificador de chunks han mejorado considerablemente y se ha compensado la influencia del relativamente pequeño corpus de entrenamiento que disponemos para el euskera. En cuanto a la identificación de cláusulas, los primeros resultados no son demasiado buenos, debido probablemente al orden libre del euskera y al pequeño corpus del que disponemos actualmente.This paper presents systems for syntactic chunking and clause identification for Basque, combining rule-based grammars with machine-learning techniques. Precisely, we used Filtering-Ranking with Perceptrons (Carreras, Màrquez and Castro, 2005): a learning model that recognizes partial syntactic structures in sentences, obtaining state-of-the-art performance for these tasks in English. This model allows incorporating a rich set of features to represent syntactic phrases, making possible to use information from different sources. We used this property in order to include more linguistic features in the learning model and the results obtained in chunking have been improved greatly. This way, we have made up for the relatively small training data available for Basque to learn a chunking model. In the case of clause identification, our preliminary results are low, which suggest that this is due to the free order of Basque and to the small corpus available.Research partly funded by the Basque Government (Department of Education, University and Research, IT-397-07), the Spanish Ministry of Education and Science (TIN2007-63173) and the ETORTEK-ANHITZ project from the Basque Government (Department of Culture and Industry, IE06- 185)

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Propuesta de una clasificación general y dinámica para la definición de errores

Author: Aldabe Arregi Itziar
Arrieta Kortajarena Bertol
Díaz de Ilarraza Sánchez Arantza
Maritxalar Anglada Montse
Oronoz Anchordoqui Maite
Uria Garin Larraitz
Publication venue: Servicio Editorial de la Universidad del País Vasco/Euskal Herriko Unibertsitatearen Argitalpen Zerbitzua
Publication date: 01/01/2005
Field of study

Archivo Digital para la Docencia y la Investigación

Propuesta de una clasificación general y dinámica para la definición de errores

Author: Aldabe Arregi Itziar
Arrieta Kortajarena Bertol
Díaz de Ilarraza Sánchez Arantza
Maritxalar Anglada Montse
Oronoz Anchordoqui Maite
Uria Garin Larraitz
Publication venue: Servicio Editorial de la Universidad del País Vasco/Euskal Herriko Unibertsitatearen Argitalpen Zerbitzua
Publication date: 01/01/2005
Field of study

Archivo Digital para la Docencia y la Investigación

Corpusen etiketatze linguistikoa

Author: Aldezabal Roteta Izaskun
Aranzabe Urruzola María Jesús
Díaz de Ilarraza Sánchez Arantza
Estarrona Ibarloza Ainara
Ezeiza Ramos Nerea
Uria Garin Larraitz
Publication venue: Servicio Editorial de la Universidad del País Vasco/Euskal Herriko Unibertsitatearen Argitalpen Zerbitzua
Publication date: 01/01/2009
Field of study

In this article, we shall comment on the steps that have to be taken to give a linguistic label to a corpus and the difficulties that appear in this process. Our main objective was to highlight the importance of the labelling when preparing a corpus that is useful for linguistic research, and the need to establish criteria and to take the decisions that this entails. We also explain how semi-automatic methods are applied and how the manual revision that guarantees the quality of the corpus is carried out. Once the corpus has been revised and labelled, it will be useful both for carrying out linguistic analyses and for improving or assessing the linguistic tools and resources, and also for channelling automatic study

Archivo Digital para la Docencia y la Investigación

Universidad del País Vasco / Euskal Herriko Unibertsitatea: Ciencia - Portal de revistas digitales de la UPV/EHU

Corpusen etiketatze linguistikoa

Author: Aldezabal Roteta Izaskun
Aranzabe Urruzola María Jesús
Díaz de Ilarraza Sánchez Arantza
Estarrona Ibarloza Ainara
Ezeiza Ramos Nerea
Uria Garin Larraitz
Publication venue: Servicio Editorial de la Universidad del País Vasco/Euskal Herriko Unibertsitatearen Argitalpen Zerbitzua
Publication date: 01/01/2009
Field of study

Archivo Digital para la Docencia y la Investigación

Aprendizaje de correspondencias variante-estándar usando un corpus paralelo limitado y la morfología del estándar

Author: Alegría Loinaz Iñaki
Etxeberria Uztarroz Izaskun
Hulden Mans
Uria Garin Larraitz
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2014
Field of study

This paper explores three different methods of learning to map variant word form (dialectal or diachronic) to standard ones from a limited parallel corpus of standard and variant texts, given that a computational description of the standard morphology is available.Este artículo explora tres diferentes métodos de aprendizaje de las variantes de un idioma (formas dialectales o diacrónicas) a partir de un pequeño corpus paralelo suponiendo que la morfología estándar está disponible.This research has been partially funded by the Spanish Science and Innovation Ministry (Tacardi project, TIN2012-38523-C02-01) and by the Basque Government (Ber2tek, Etortek-IE12-333)

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Errores en el uso de determinantes en euskera: análisis y detección automática

Author: Arrieta Cortajarena Bertol
Díaz de Ilarraza Sánchez Arantza
Maritxalar Anglada Montserrat
Oronoz Anchordoqui Maite
Uria Garin Larraitz
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2009
Field of study

En este artículo presentamos un estudio realizado para analizar el uso incorrecto de los determinantes en textos escritos en euskera. El análisis exhaustivo de esta tipología de errores (a través de los ejemplos recopilados) ha sido la base para la detección automática de los mismos. La recopilación y el análisis de errores son imprescindibles para el desarrollo de un corrector gramatical para el euskera y para la creación de sistemas inteligentes de enseñanza de lenguas asistida por ordenador (ICALL).In this paper we present the work carried out to deeply study the nature of determiner errors in written Basque. The collected error examples have led us to a more exhaustive analysis which has been essential for the automatic detection of the exhibited phenomena. The analyzed and stored data are necessary for the development of a grammar checker for Basque and Intelligent Computer-Assisted Language Learning (ICALL) systems

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

ANALHITZA: herramienta para extraer información lingüística de corpus extensos para su uso en investigaciones de ciencias humanas

Author: Díaz de Ilarraza Sánchez Arantza
Imaz Oier
Iruskieta Quintian Mikel
Otegi Arantxa
Uria Garin Larraitz
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2017
Field of study

El tamaño reducido de los corpus en ciertos campos de investigación se debe a la falta de herramientas para procesar el lenguaje de forma masiva y sencilla. En este artículo presentamos ANALHITZA, una herramienta que estamos desarrollando dentro del proyecto Clarin-k que tiene como objetivo principal la creación de tecnologías lingüísticas útiles para la investigación en Ciencias Sociales y Humanidades. ANALHITZA ha sido diseñada para extraer información lingüística online de textos extensos de una forma sencilla. Además, es una herramienta multilingüe que permite analizar textos escritos en tres lenguas: euskera, castellano e inglés. En este artículo, a modo de ejemplo, presentamos tres estudios en los que se ha usado esta herramienta, que puede ser rediseñada para cubrir las necesidades de investigación de muchas de las ramas de Humanidades.The reduced size of corpora in some areas of research is due to the lack of tools to process massively and easily the language under study. In this article, we present ANALHITZA, a tool which is being developed within the Clarin-k project, whose aim is the creation of linguistic technologies that are useful for research on Social Sciences and Humanities. ANALHITZA has been designed to extract linguistic information online from large corpora in an easy way. Besides, it is a multilingual tool which can process texts written in three languages: Basque, Spanish and English. Moreover, we present three real examples of study where ANALHITZA has been used. The tool can be redesigned or changed, according to the needs of the scientific community in the field of Humanities

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Revista de psicodidáctica

Author: Aldabe Arregi Itziar
Arrieta Cortajarena Bertol
Díaz de Ilarraza Sánchez Arantza
Maritxalar Anglada Montserrat
Oronoz Anchordoqui Maite
Uria Garin Larraitz
Publication venue
Publication date: 01/01/2005
Field of study

Título, resumen y palabras clave en español y en inglésResumen basado en el de la publicaciónSe presenta una clasificación dinámica que ha sido definida con el objetivo de almacenar y clasificar errores. En concreto, los datos recopilados sirven como punto de partida para estudiar el proceso de aprendizaje del euskera y para llevar a cabo investigaciones en diversos campos de estudio como el Análisis de Errores (AE) y el Procesamiento del Lenguaje Natural (PLN). La clasificación que aquí se presenta se encuentra integrada en un conjunto de herramientas de PLN desarrolladas en el grupo IXA (EHU-UPV): por un lado, en la base de datos DESBIDERATZEAK, diseñada para recopilar información sobre el proceso de aprendizaje del euskera dentro del área del Aprendizaje y Enseñanza de Lenguas Asistido por Ordenador; y por otro, en la base de datos ERROREAK, creada para el estudio del tratamiento automático de errores con la idea de desarrollar un corrector gramatical y de estilo para la lengua vasca.ES

DSpace Redined

Dependentzia Unibertsalen eredura egokitutako euskarazko zuhaitz-bankua

Author: Aranzabe Urruzola María Jesús
Atutxa Salazar Aitziber
Bengoetxea Kortazar Kepa Xabier
Díaz de Ilarraza Sánchez Arantza
Goenaga Azcarate Iakes
Gojenola Galletebeitia Koldobika
Uria Garin Larraitz
Publication venue: 'UPV/EHU Press'
Publication date: 01/01/2019
Field of study

Hizkuntzaren Prozesamenduan kokatzen den Dependentzia Uniber-tsalen proiektuaren helburua da hainbat hizkuntzatan sortu diren dependentzia-ereduan oinarritutako zuhaitz-bankuak etiketatze-eskema estandar berera egokitzea. Artikulu honetan, eredu horretara automatikoki egokitu den euskarazko zuhaitz-bankua aurkez-ten da; halaber, egokitzapen-lan hori nola gauzatu den deskribatzen da eta, azkenik, ho-rretan oinarrituta, azaltzen da zer antzekotasun eta zer desberdintasun diren jatorrizko zuhaitza-bankuaren eta Dependentzia Unibertsalen eredura egokitutako zuhaitz-ban-kuaren artean.; In the Natural Language Processing research area, the aim of the Uni-versal Dependencies project is to convert dependency based treebanks developed in different languages into the same standard tagging scheme. This article presents the automatic conversion of the previously existing Basque treebank into this universal tagging scheme. This work describes how the conversion process has been carried out and highlights the similarities and differences between the original Basque treebank and the Universal Dependency based version of it

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Archivo Digital para la Docencia y la Investigación

Universidad del País Vasco / Euskal Herriko Unibertsitatea: Ciencia - Portal de revistas digitales de la UPV/EHU